5.1 数据折叠 EMP_collapse

数据折叠是指对原始的assay进行合并以生成新的assay。EMP_collapse可以根据rowdatacoldata中的指定数据进行折叠。在折叠过程中,可以选择计算平均值、中位数、求和、最大值或最小值作为合并后的结果。

5.1.1 根据重复的coldata合并assay

EMP_collapse 可以将assay按照coldata进行折叠。

🏷️示例:按照coldataGroup列合并assay

折叠前的assay:

MAE |>
  EMP_assay_extract(experiment='taxonomy')

折叠后的assay:

提取组学项目taxonomyassay,参数estimate_group指定按照coldataGroup列折叠,参数collapse_by指定按照col(coldata)折叠,参数collapse_sep指定使用+分隔符来合并该组学项目的coldata中发生折叠的字符串单元格。

MAE |>
  EMP_assay_extract(experiment='taxonomy') |>
  EMP_collapse(collapse_by='col',estimate_group = 'Group',
               method = 'mean',collapse_sep = '+')

折叠后的coldata:

注意:
尽管数据折叠操作本质上是将assay进行折叠,但就任何组学项目而言,assaycoldatarowdata是从建立MAE对象时就绑定、联系在一起的。因此,当assay根据coldata进行折叠时,coldata也会进行相应折叠。如果coldata的数据属于连续型变量,则和assay使用相同的方法进行计算;如果coldata的数据属于字符串变量,则使用collapse_sep指定的符号进行合并。如果coldata的数据属于逻辑变量,则使用collapse_boolean进行合并。
MAE |>
  EMP_assay_extract(experiment='taxonomy') |>
  EMP_collapse(collapse_by='col',estimate_group = 'Group',
               method = 'mean',collapse_sep = '+') |>
  EMP_coldata_extract()

5.1.2 根据重复的rowdata合并assay

EMP_collapse 可以将assay按照rowdata进行折叠。

🏷️示例1: 按照rowdataClass列合并assay

在微生物组学中,输入MAE对象内的微生物物种数据通常为最高分类级别的数据(例如:种或株级别)。EMP_collapse可以通过指定参数estimate_group,将assay的feature按照rowdata内较高的分类级别快速折叠为较低分类级别(例如:门或属级别)。

注意:
①将assay按照rowdata折叠后,assay的feature发生改变,但sample是不改变的。在本示例中,原本为species级别的feature被折叠为Class级别。
②微生物物种注释折叠过程中可能出现全注释与单注释的冲突问题,请查看微生物数据完整注释问题。
③微生物物种注释折叠过程中,本模块会自动检测上述冲突问题,并提示用户选择全注释或者单注释。由于流程中模块默认进行自动缓存,如果需要重新选择,可以设置use_cached = FALSE,然后再次运行即可。
MAE |>
  EMP_assay_extract(experiment='taxonomy') |>
  EMP_collapse(collapse_by='row',estimate_group = 'Class',
               method = 'sum',collapse_sep = '+')

🏷️示例2:按照rowdata的特定列合并assay。

注意:
①在代谢组学项目中,代谢物通常有多种注释方式,我们可以快速按照rowdata中代谢物的注释级别对assay进行数据折叠。
②用于折叠的feature必须存在于rowdata中(例如,组学项目geno_ko的assay无法按照rowdata中的Class列进行折叠)。用户可以使用模块EMP_rowdata_extract查看可用于合并的feature。

折叠前的assay:

MAE |>
  EMP_assay_extract(experiment = 'untarget_metabol')

折叠后的assay:按照kegg二级代谢产物折叠后的assay。

注意:
在一些代谢组学原始数据中,经常出现NA、 null、 - 等符号(均表缺失值),使用参数na_string可以指定这些字符串为缺失值。在数据折叠时,如果在指定的用于合并的feature中出现缺失值,则该行数据将会被忽略。
MAE |>
  EMP_assay_extract(experiment = 'untarget_metabol') |>
  EMP_collapse(estimate_group = 'MS2kegg',collapse_by='row',
               na_string = c("NA", "null", "","-"),
               method = 'mean',collapse_sep = '+')

Copyright © 382983280@qq.com 2024 all right reserved,powered by Gitbook更新时间: 2025-04-16 02:50:56

results matching ""

    No results matching ""